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Systeme d' extraction d' informations 
* ^ dans un texte en langage naturel 

La presente invention concerne un systeme d' extraction 
d 1 informations dans un texte en langage naturel, en vue de 
selectionner les mots ou les groupes de mots du texte qui 
decrivent le mieux les sujets abordes dans le texte. Ces mots 
ou groupes de mots sont appeies les "mots-cies" et sont 
notamment utilisables ei des fins d' indexation du texte dans 
une base de donn^es documentaire, en particulier pour le 
resume automatique du texte, pour la categorisation ou toute 
autre tentative de representation de la connaissance, 

Les syst^mes d' extraction d' informations que l^n connait et 
qui tentent d'atteindre ces objectifs utilisent des methodes 
d 1 analyses de trois types : 

- les methodes d' analyse statistique qui tentent d'elire les 
mots du texte les plus repr£sentatif s en comptant leurs 
frequences d 1 apparition et en ne retenant que ceux dont la 
frequence n'est ni trop faible, ni trop forte; 

- les methodes d» analyse a thesaurus qui fonctionnent d'apres 
•une representation predef inie de la connaissance et qui sont 
basees sur la definition prealable d'un lexique structure de 
reference appeie thesaurus. Cette definition est entierement 
manuelle et doit §tre operee dans chaque domaine de 
specialites; 

- les methodes d 1 analyse & reconnaissance de motifs (patterns) 
qui fonctionnent a I 1 aide d 1 identifications statistiques de 
motifs (patterns) . 

Le fonctionnement comparatif de ces trois types de methodes 
d' analyse va §tre illustre ci-apres par 1' analyse du texte 
suivant : 
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"<xCats», l'une des comedies musicales les plus longtemps h l'affiche, va 
tirer sa reverence apris vingt et une annees sur la scSne londonienne. La 
derniere representation de cette ceuvre d' Andrew Lloyd Webber aura lieu le 
11 mai, jour de son 21e anniversaire, apres quelque 9 000 representations. 
L'annonce a ete faite trois jours apres la derniere representation de 
«Starlight Express*, la seconde comedie rausicale la plus longtemps & 
l'affiche & Londres, apres dix-huit annees sur les planches. 

La fin de «Cats» est un coup dur supplement aire pour le quartier de Covent 
Garden, oH sont regroupe*s la plupart des theatres londoniens, et qui a 
souffert d'une forte baisse de f requentation en 2001. Depuis 1981, annde 
de son lanceraent, la comedie musicale a, depuis, etS interprets devant 
plus de 50 millions de spectateurs en 11 langues et dans 26 pays." 

(source Reuter) 

Fonctionnement des methodes d 1 analyse statistique : 

Si l f on considere leur approche de fagon caricaturale, les 
methodes d 1 analyse statistique comptent les mots du texte pour 
ne retenir que ceux dont la frequence n'est ni trop faible ni 
trop forte en 61iminant parfois les mots outils (articles, 
prepositions, conjonctions , auxiliaires verbaux) , af in 
d'af finer les resultats. En ce qui concerne le texte propose 
ci-dessus, les mots "moyennement" frequents (sans prendre en 
consideration les mots outils) sont alors : 

affiche, annees, Cats, comedie, derniere, ete, longtemps, 
musicale et representation. 

Bien que le principal avantage des methodes d 1 analyse 
statistique reside dans une grande simplicity algorithmique, 
leur principal dSsavantage reside en la faible pertinence des 
resultats. En effet, les mots "moyennement" frequents d'un 
texte sont rarement les plus reprSsentatif s . Ces methodes 
peuvent toutefois dormer de meilleurs resultats sur des textes 
plus longs que le texte d'exemple ci-dessus. 
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D 1 autre part, du fait que le texte est ddcoupe en mots, c'est- 
a-dire en chaines de caractdres dont les delimiteurs sont des 
espaces, les liens semantiques qui peuvent relier des mots 
entre eux, comme par exemple les mots "comedie" et "musicale", 
sont perdus. 

Fonctionnement des methodes d' analyse a thesaurus : 

Ces methodes sont bashes sur la definition prgalable d'un 
lexique structure de reference appele thesaurus, cette 
definition etant, comme on l'a mentionne plus haut, 
entierement manuelle et devant etre operee dans chaque domaine 
de speciality • 

Imaginons par exemple le thesaurus suivant : 

spectacle — > com6die (s) — > dramatique 

.— > musicale -> Cats 

-> Les dix commandements 
— > savante 

Avec ce type de methodes, il est toujours possible 
d' identifier les mots du texte source qui se retrouvent 
exactement sous la m§me forme dans le thesaurus. L 1 avantage de 
ces methodes est que I'on peut etre stir que les mots 
identifies correspondent a une realite culturelle ou 
scientifique etablie et repertoriee. D' autre part, il est 
possible de deduire un mot federateur comme "spectacle" qui ne 
fait pas partie du texte initial, mais qui le caracterise 
correcteraent . En revanche, 1 1 inconvenient majeur de ces 
methodes est qu'il faut perpetuellement mettre S jour le 
thesaurus pour qu'il conserve sa pertinence, ce qui entraine 
des frais de maintenance importants. Un autre inconvenient 
important de ces methodes reside dans le fait qu'un thesaurus 
constitue pour analyser des textes dans le domaine de la 
chimie ne pourra pas §tre utilise pour des textes dans le 
domaine de 1 » elect ronique, par exemple. De plus, dans le cas 
oil le thesaurus n'est pas exhaust if, certaines expressions qui 
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peuvent etre tres pertinentes ne seront pas reconnues cowme 
telles, 

Fonc tionnement des methodes d 1 analyse a reconnaissance de 
motifs : 

Les methodes d l analyse & reconnaissance de motifs que I'on 
connait sont des methodes d' identification statistiques de 
motifs qui, bien qu'elles ameliorent considerablement les 
methodes d' analyse statistique mentionnees plus haut, en 
conservant la trace de 1 1 appariement des mots, comme par 
exemple des termes "com§die" et "musicale" de ^exemple ci- 
dessus, ne permettent pas d 1 analyser de fagon correcte des 
textes courts. En effet, les methodes statistiques ont besoin 
de quantite pour fonctionner correctement . 

Par exemple, les motif s-cles du texte d' exemple seront obtenus 
par comparaisons approximative s de sequences plus ou moins 
longues entre elles. Les mots outils (le, la, les, ...) ne 
comptent pas, et les sequences sont fornixes a partir d'un mot, 
plus ou moins trois mots : 

Cats- 

Cats comedies 

Cats comedies musicales 

Cats comedies musicales longtemps 

comedies 

comedies musicales 

comedies musicales longtemps 

comedies musicales longtemps af f iche 

musicales 

musicales longtemps 
musicales longtemps affiche 
musicales longtemps affiche tirer 
e t c««* 

II suffit ensuite de regrouper les differentes sequences 
obtenues, par approximation sur la forme (par exemple 
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« comedies » et « com^die s>) , et de compter les expressions 
combinees les plus f r^quentes comme « comedies musicales » . 

Le but de la presente invention est de proposer un systdme 
pour l f extraction d' informations dans un texte en langage 
naturel permettant de rem€dier aux inconv£nients des methodes 
d 1 analyses connues , en permettant notatnment une analyse de 
bonne qualite de textes aussi bien courts que longs. 

A cet effet, le systeme utilise une m^thode d' analyse par 
identification de motifs (patterns) non pas statistique, mais 
syntaxique . 

En resumO, le systdme propos§ convert it les mots du texte en 
suite de categories syntaxiques, puis confront e des sous- 
ensembles du texte avec des motifs syntaxiques pr^definis, de 
fac?on & identifier des groupes nominaux sans prejuger de la 
valeur des mots qui composent ces groupes. 

Ainsi, les mots <c pomrae de terre » ou « electronique de 
puissance » ne sont pas important par eux-raemes , mais sont 
importants par rapport au texte oii ils apparaissent . Dans un 
texte de nature generale « Electronique de puissance » peut 
n'etre qu'un exemple, pas un mot-cl§ du texte , mais sera 
probablement mot-cl§ dans un texte traitant des transistors. 
C'est le contexte qui fait le mot-cle, et le systeme selon la 
presente invention comporte en quelque sorte un analyseur de 
contextes syntaxiques. De m§me, le mot "porte" peut Stre 

reconnu comme nominal dans certains textes a cause de sa 

« 

position par rapport aux autres mots du texte, ou simplement 
comme mot structurel dans d* autres textes. 

Le systeme d 1 extraction selon 1' invention lvalue la fonction 
grammaticale des mots du texte §. analyser a l'aide d'un 
lexique pr§d£fini contenant les quelques dizaines de mots 
outils propres a chaque langue et qui sont essentiellement les 
articles, les propositions, les conjonctions et auxiliaires 
verbaux. La fonction des autres mots est ensuite dOduite grace 
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a 1 1 emplacement des seuls mots outils. Du fait que les mots 
outils d'un texte representent couramment 40 & 50 % des mots 
de ce texte, ceux-ci sont done tou jours assez nombreux pour 
permettre 1' evaluation des autres mots, Ensuite, seules les 
parties du texte dont la grammaire est identifiee comme mots- 
cles possibles sont retenues. 

Les avantages du systeme d 1 extraction selon 1« invention sont 
nombreux. On relevera, en particulier, qu'aucune intervention 
humaine n'est n^cessaire pour la determination des mots-cles, 
que le systdme peut fonctionner pour des textes de langues 
diverses et que, mis a part le lexique des mots outils, il ne 
necessite aucun autre lexique. De plus, du fait que la valeur 
semantique et grammaticale des mots outils est fixe et 
n'evolue pratiquement jamais sur plusieurs d^cennies, la 
maintenance du lexique est des plus reduites. En revanche, la 
valeur des autres mots, que l'on peut appeler les mots d 1 usage 
(verbes, noms, adjectifs) , evolue sans cesse dans le temps, en 
fonction des usages, de Involution des metiers ou des 
sciences, ou simplement en fonction de l'actualite- Du fait 
que le systeme de la pr£sente invention ne presuppose rien sur 
la valeur des mots d 1 usage, il fonctionne de fagon identique 
dans tous les domaines, litteraire, technique ou scientif ique, 
alors que les systemes qui utilisent les m€thodes connues 
doivent toujours etre enrichis avec des lexiques specialises, 
fabriques bien souvent sur mesure. 

D 1 autre part, contrairement aux systemes utilisant des 
m6thodes d 1 analyse statistique dans lesquelles la frequence 
d 1 apparition des mots est un critdre de selection, ce qui 
suppose que le texte soit suffisamment long, le systeme selon 
1' invention n ' accorde k la frequence d 1 apparition des mots 
qu'une importance subalterne et fonctionne aussi bien pour des 
textes longs de plusieurs dizaines de pages que pour des 
textes courts de quelques lignes . 
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On va decrire ci-apres, & titre d 1 exemple, un systdme 

d 1 extraction d' informations selon 1« invention dans un texte en 

langage naturel, en se referant aux dessins, sur lesquels : 

- la fig. 1 est un schema-bloc du systeme d' extraction selon 
1 1 invention; 

- la fig. 2 est un schema-bloc des etapes d f un mode 
d' execution du precede iselon 1' invention. 

L 1 utilisation d'un module syntaxique requiert de reconnaltre 
la langue du texte analyst. C'est done naturellement la 
premidre operation qu'effectue le systeme d' extraction selon 
l 1 invention. Cette reconnaissance de la langue peut gtre basee 
sur des critdres purement statistiques de cooccurrence de 
lettres. La reconnaissance des langues, par exemple anglais, 
espagnol, frangais, portugais, allemand ou italien, permet 
d'orienter les analyses qui seront realisees en aval. 

L'Stape suivante est une etape de profilage du texte qui 
permet d' identifier les lignes de texte (paragraphes) 
comportant une information linguistique, et d'op^rer des 
regroupements de paragraphes . Cette operation est 
particulidrement utile pour les textes structures (avec 
titres, sous-titres, etc*), car elle permet de regrouper des 
paragraphes de fagon coh£rente. Elle est inutile pour des 
textes courts. 

L 1 etape suivante consiste en une operation de regular isat ion 
du texte au cours de laquelle il s'agit d'eliminer les 
amalgames de signes, comme par exemple separer les caracteres 
typographiques des caracteres alphabetiques . II sera par 
exemple utile de reconnaitre la chaine "mot," comme le terme 
"mot" suivit de ",", alors que la chaine "1,5" devra §tre 
reconnue comme un nombre. 
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Dans le texte d'exemple, cette etape revient a sparer les 
caracteres typographiques ( " , » , et " . - ) des autres mots 

par des espaces blancs. Le texte d'exemple devient alors : 

"« Cats » , I* une des comedies musicales les plus longtemps a I ' affiche , va tirer 
sa reverence apres vingt et une annees sur la scene londonienne . La derniere 
representation de cette ceuvre d ' Andrew Lloyd Webber aura lieu le 1 1 mai , jour 
de son21eanniversaire, apres quelque 9 000 representations . L annonce a ete 
faite trois jours apres la derniere representation de « Starlight Express » , la 
seconde comedie musicale la plus longtemps a I * affiche a Londres , apres dix - 

hurt annees sur les planches . ' 
Lafinde « Cats » est un coup dur supplemental pour le quartier de Covent 
Garden ou sont regroupes la plupart des theatres londoniens . et qui a souffert d 
une forte baisse de frequentation en 2001 . Depuis 1981 , annee de son lancement 
, la comedie musicale a , depuis , ete interpretee devant plus de 50 millions de 
spectateurs en 1 1 langues et dans 26 pays . " 

L'6tape suivante, qui const itue une etape cle du systetne, 
consiste a determiner la categorie de chaque mot. Grace au 
lexique restreint des mots outils, les mots du texte sont 
codes selon des categories grammaticales attributes en 
fonction de la valeur syntaxique des mots. Les mots outils du 
lexique sont dans un premier temps reconnus dans le texte, 
puis la fonction des autres mots du texte est deduite en 
fonction de leur emplacement par rapport aux mots outils deja 



Ainsi, si l'on adopte par exemple les categories suivantes 

s: mot de structure (mot outil non utile pour la suite de 

1 1 analyse) 
d: determinant (le, la, les, etc.) 
p: preposition (de, en, par, etc.) 
4 : signe ouvrant ou f ermant 
1 ou 2 : pone tuat ion 
3 : apostrophe 
N : nombre 
W: nom propre 
w : nom commun 

c: amalgame (du, des, au, aux, ...) 
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a: anaphores (ce, cet, ces, „.) 

*: code attribue si aucune des categories pr^cedentes n'est 
reconnue 

Le texte d'exemple mentionne plus haut devient : 

4W42d3dcw3w4dw1v\£pd3w32sv\£aw4w2w1^ 
w1dNw12w1pa*w52w2dNNw51d3w3sw2v^dw1w2dw3w5p4WW 
d3w3pW2w2d0dw2pdw21dw1p4W4sdw1w1w5pdw2pWW2ssw3dw2cw2v^ 
p3dv\£w2pw4pN1WN2w2paw32dvtfw4s2w22w2w4v^w1pN 

Une £tape suivante consiste k identifier les structures 
linguistiques appel^es syntagmes nominaux dans la terminologie 
linguistique ou, plus simplement , groupes nominaux. 

L 1 ensemble des motifs syntaxiques qu f il est utile d« identifier 
const itue la grammaire d' analyse. Du fait que cette grammaire 
est commune a 1' ensemble des langues romanes, il est possible 
d 1 analyser un grand nombre de langues en utilisant un meme 
systdme d' extraction selon l 1 invention sans adaptation lourde. 

A titre d'exemple, une grammaire (simplifi^e) peut avoir la 
forme suivante : 

(1) syntagme nominal -> determinant , groupe nominal ; W . 

(2) determinant -> d ; d , 3 ; nombre ; c ; a 

(3) d -> *le' ; *la' ; *les' ; 'des' ; *1' ; etc... 
Obis) c -> % du' ; ^au' ; 'aux' ; etc... 

(3ter) a -> % ce' ; * cette' ; % ces' ; 'son' ; etc... 

(4) groupe nominal -> expression , groupe nominal . 

(5) expression ->w,p,w;w. 

(6) p -> 'de' ; 'a' ; 'pour' ; 'sans' ; etc... 

La fleche se dit <x se r6ecrit la virgule se dit «c suivi 
de », le point -virgule exprime un « ou le point marque la 
fin de la regie. La regie (1) se lit « syntagme nominal se 
reecrit determinant suivi de groupe nominal ». 
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Les regies (3) et (6) sont dites regies terminales car elles 
font appels aux formes lexicales du lexique des mots outils. 

La regie (4) est vine regie recursive. Un groupe nominal peut 
done contenir une infinite d' expressions, lesquelles, selon 
la regie (5) sont soit de type wpw, soit de type w. 

Les suites de categories grammaticales suivantes seront done 
reconnues corame syntagme nominal : 



d w 

d w p w 

d w w 

d w w p w 

d 3 w w 



Sur le texte d'exemple, les groupes nominaux identifies a 
l'aide de cette gratnmaire ont et§ soulignes : 

«Cats», l'une des comedies musicales les plus longtemps k l'affiche, va 
tirer sa reverence apres vingt et line annees sur la scene londonienne. La 
derniere representation de cette ceuvre d' Andrew Lloyd Webber aura lieu le 
11 max, jour de son 21e anniversaire , apres quelques 9 000 
representations . L' annonce a ete faite trois jours apres la derniere 
representation de « Starlight Express *, la seconde co m6die musicale la plus 
longtemps a l' affiche a Londres , apres dix-huit annees sur les planches . 

La fin de « Cats » est un coup dur supplementaire pour le guartier de Covent 
Garden , oil sont regroupes la plupart des theatres londoniens, et qui a 
souffert d'une forte baisse de fragmentation en 2001 . Depuis 1981, annee 
de son lancement , la com6die musicale a, depuis, ete interprets devant 
plus de 50 millions de spectateurs en 11 langues et dans 26 pays. 

(source Reuter) 

Comme les groupes nominaux representent a peu prds 50 % du 
texte, il est n6cessaire de ne retenir que ceux dont la 
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probability d'etre de vrais mots-cles du texte est la plus 
forte . 

* 

Une etape suivante peut consister a filtrer les groupes 
nominaux. Tous les groupes nominaux n'ont pas la meme capacite 
referentielle. Certains sont plus importants que d'autres. 
Pour determiner quels sont les plus importants d'entre eux, le 
systeme selon 1' invention valorise chaque groupe nominal en 
fonction d'un double critere, l'un statistique, 1' autre 
syntaxique . 

Le critere statistique : 

Les mots les plus frequents des groupes nominaux sont classes 
par ordre de frequence decroissant (en tenant compte d'une 
approximation comme 'comedie' > ^comedies'), soit dans le 
texte d'exemple : 

comedie 3 
musicale 3 

* 

affiche 2 
annees 2 

■ 

Cats 2 ■ • 

derniSr e 2 
representation 2 

Seuls les mots dont 1' occurrence depasse 1 sont conserves dans 
la liste. Les mots §limin§s ont done une valeur nulle. On 
ajoute a la valeur de chaque groupe nominal (initialement 
fixee a 0), la valeur de 1' occurrence des mots qu'il contient 
moins 1. La valeur des groupes nominaux devient : 

com6die musicale (3-1) +(3-1) =4 

2-1 = 1 
a Londres 2-1=1 
Cats 2-1=1 
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Le critdre syntaxique : 

Lorsque qu'un groupe nominal est ou comporte un nom propre, 
celui-ci prend un point de valeur supplementaire , 0 sinon. 



comedie musicale 4+0=4 
affiche 1+0=1 

a Londres 1+1=2 

1 + 1 = 2 



etc 



Avec cette valorisation, il est aise de proceder au classement 
des groupes nominaux. Dans le texte d'exemple, les groupes 
nominaux percus come les plus importants sont soulignes deux 
fois, les groupes d' importance secondaire sont soulignes une 
fois, tandis que les autres ont ete purement et simplement 
elimines . 

«Cats», l'une des goajo^es musicales les plus longtemps a 1' affiche , va 
tirer sa reverence apres vingt et une annees sur la scene londonienne. La 
dernlere representation de cette cuvre d' Andrew Lloyd Web ber aura lieu le 
11 mai, jour de son 2le anniversaire , apres quelque 9 000 representations . 
L'annonce a ete faite trois jours apres la demiere representation de 
^ Starlight Express *, la ^-onde com firtift musicale la plus longtemps h 
1' affiche a Londres , apres dix-huit annees sur les planches. 

La fin de «Cats» est un coup dur supplementaire pour le quartier de Covent 
Garden , ou sont regroupes la plupart des theatres londoniens, et qui a 
souffert d'une forte baisse de f requentation en 2001. Depuis 1981, annee 
de son lancement, la egmjdlg musicale a, depuis, 6t6 interpretee devant 
plus de 50 millions de spectateurs en 11 langues et dans 26 pays. 

(source Reuter) 
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Revendications 

1. Procedg d' extraction d' informations dans un texte en 
langage naturel, par identification de motifs (patterns), 
caracterise en ce que l'on effectue un codage des mots du 
texte en les comparant avec le contenu d'un lexique predefini 
de mots outils, et en ce que l»on identifie ensuite des 
groupes nominaux en recherchant, parmi des sous-ensembles de 
la suite des mots codes ainsi obtenue, des groupes de mots 
cod£s rgpondant & des rdgles syntaxiques pr^difinies. 

2. Procede selon la revendication 1, caracterise en ce 
que le codage des mots du texte s r effectue par evaluation de 
la fonction grammaticale de chaque mot en le comparant avec le 
contenu dudit lexique de mots outils, de fa<?on a reperer les • 
mots outils dans le texte et en ce que la fonction des mots 
d'usage, non reconnus comme mots outils, est deduite en 
comparant leur emplacement par rapport a 1 r emplacement des 
mots reconnus comme rnots outils. 

3. Procede selon l'une des revendications 1 ou 2, 
caracterise en ce que les groupes nominaux identifies sont 
ensuite valorises de fagon a ne retenir que les groupes pergus 
comme les plus importants en utilisant des critdres de 
valorisation pr6d6finis. 

4. Systeme d' extraction d' informations dans un texte en 
langage naturel, caracterise en ce qu'il comprend : 

- xme unite d' entree pour recevoir ledit texte en 
langage naturel, 

- un f ichier lexique dans lequel sont enregistres des 
mots outils, 

- un processeur d' analyse relie a ladite unite d' entree, 
au fichier lexique et agence pour effectuer dans un 
premier temps le codage des mots dudit texte en 
langage naturel par evaluation de la fonction 
grammaticale de chaque mot en le comparant avec le 
contenu dudit fichier lexique de mots outils, de fagon 
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d'une part a reperer les mots outils dans le texte et 
a evaluer la fonction des mots d' usage, non reconnus 
comme mots outils, en comparant leur emplacement par 
rapport a 1 ' emplacement des mots reconnus comme mots 
outils, et dans un deuxieme temps une recherche, parmi 
des sous -ensembles de la suite de mots codes obtenue, 
des groupes de mots codes repondant a des regies 
syntaxiques predefinies, de facon a identifier des 
groupes nominaux, 
- une unite de sortie reliee audit processeur d' analyse 
pour recevoir les groupes de mots codes reconnus comme 
des motifs syntaxiques. 

5. Systeme selon la revendication 4, caracterise en ce 
que le processeur d' analyse comprend en outre des moyens de 
valorisation des groupes de mots codes retenus de facon a ne 
retenir que les groupes percus comme les plus importants. 

6. Systeme selon l'une des revendications 3 ou 4, 
caracterise en ce que le processeur d' analyse comprend en 
outre des moyens de reconnaissance de la langue du texte recu 
dans 1' units d' entree. 

7. Systeme selon l'une des revendications 4 a 6, 
caracterise en ce que le processeur d' analyse comprend en 
outre des moyens de regular isat ion du texte recu dans 1' unite 
d' entree de facon a eliminer les amalgames de signes. 
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Abrege 

Le proc£d£ d 1 extraction effectue un codage des mots du texte 
en les comparant avec le contenu d f un lexique de mots outils 
(essentiellement articles, prepositions, conjonctions et 
auxiliaires verbaux) , puis identif ie des groupes nominaux en 
recherchant, parmi des sous -ensembles de la suite des mots 
cod6s ainsi obtenue, des groupes de mots codes repondant k des 
regies syntaxiques pred€finies. 



(Fig, 1) 
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